网络嵌入任务是将网络中的节点表示为低维矢量,同时结合了拓扑和结构信息。大多数现有方法通过直接或隐式分配接近性矩阵来解决此问题。在这项工作中,我们从新的角度介绍了一种网络嵌入方法,该方法利用现代Hopfield网络(MHN)进行关联学习。我们的网络学习每个节点的内容与该节点的邻居之间的关联。这些关联是MHN中的回忆。鉴于该节点的邻居,网络的复发动力学使得可以恢复蒙版节点。我们提出的方法对不同的下游任务进行评估,例如节点分类和链接预测。与常见的矩阵分解技术和基于深度学习的方法相比,结果表明竞争性能。
translated by 谷歌翻译
深度神经网络的兴起为优化推荐系统提供了重要的驱动力。但是,推荐系统的成功在于精致的建筑制造,因此呼吁神经建筑搜索(NAS)进一步改善其建模。我们提出了NASREC,它是一种训练单个超级网的范式,并通过重量共享有效地产生丰富的模型/子构造。为了克服数据多模式和体系结构异质性挑战,NASREC建立了一个大型的超级网(即搜索空间),以搜索完整的体系结构,而SuperNet结合了多功能操作员的选择和密集的连接性选择,并使人类的密集连接性最小化。 Nasrec的规模和异质性在搜索中构成了挑战,例如训练效率低下,操作员不平衡和降级等级相关性。我们通过提出单操作员任何连接采样,操作员平衡互动模块和训练后微调来应对这些挑战。我们对三个点击率(CTR)预测基准测试的结果表明,NASREC可以胜过手动设计的模型和现有的NAS方法,从而实现最先进的性能。
translated by 谷歌翻译
联合超分辨率和反音调映射(联合SR-ITM)旨在增加低分辨率和标准动态范围图像的分辨率和动态范围。重点方法主要是诉诸图像分解技术,使用多支化的网络体系结构。 ,这些方法采用的刚性分解在很大程度上将其力量限制在各种图像上。为了利用其潜在能力,在本文中,我们将分解机制从图像域概括为更广泛的特征域。为此,我们提出了一个轻巧的特征分解聚合网络(FDAN)。特别是,我们设计了一个功能分解块(FDB),可以实现功能细节和对比度的可学习分离。通过级联FDB,我们可以建立一个用于强大的多级特征分解的分层功能分解组。联合SR-ITM,\ ie,SRITM-4K的新基准数据集,该数据集是大规模的,为足够的模型培训和评估提供了多功能方案。两个基准数据集的实验结果表明,我们的FDAN表明我们的FDAN有效,并且胜过了以前的方法sr-itm.ar代码和数据集将公开发布。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
视频修复旨在从多个低质量框架中恢复多个高质量的帧。现有的视频修复方法通常属于两种极端情况,即它们并行恢复所有帧,或者以复发方式恢复视频框架,这将导致不同的优点和缺点。通常,前者具有时间信息融合的优势。但是,它遭受了较大的模型尺寸和密集的内存消耗;后者的模型大小相对较小,因为它在跨帧中共享参数。但是,它缺乏远程依赖建模能力和并行性。在本文中,我们试图通过提出经常性视频恢复变压器(即RVRT)来整合两种情况的优势。 RVRT在全球经常性的框架内并行处理本地相邻框架,该框架可以在模型大小,有效性和效率之间实现良好的权衡。具体而言,RVRT将视频分为多个剪辑,并使用先前推断的剪辑功能来估计后续剪辑功能。在每个剪辑中,通过隐式特征聚合共同更新不同的帧功能。在不同的剪辑中,引导的变形注意力是为剪辑对齐对齐的,该剪辑对齐可预测整个推断的夹子中的多个相关位置,并通过注意机制汇总其特征。关于视频超分辨率,DeBlurring和DeNoising的广泛实验表明,所提出的RVRT在具有平衡模型大小,测试内存和运行时的基准数据集上实现了最先进的性能。
translated by 谷歌翻译
视频修复(例如,视频超分辨率)旨在从低品质框架中恢复高质量的帧。与单图像恢复不同,视频修复通常需要从多个相邻但通常未对准视频帧的时间信息。现有的深度方法通常通过利用滑动窗口策略或经常性体系结构来解决此问题,该策略要么受逐帧恢复的限制,要么缺乏远程建模能力。在本文中,我们提出了一个带有平行框架预测和远程时间依赖性建模能力的视频恢复变压器(VRT)。更具体地说,VRT由多个量表组成,每个量表由两种模块组成:时间相互注意(TMSA)和平行翘曲。 TMSA将视频分为小剪辑,将相互关注用于关节运动估计,特征对齐和特征融合,而自我注意力则用于特征提取。为了启用交叉交互,视频序列对其他每一层都发生了变化。此外,通过并行功能翘曲,并行翘曲用于进一步从相邻帧中融合信息。有关五项任务的实验结果,包括视频超分辨率,视频脱张,视频denoising,视频框架插值和时空视频超级分辨率,证明VRT优于大幅度的最先进方法($ \ textbf) {最高2.16db} $)在十四个基准数据集上。
translated by 谷歌翻译
交通预测在智能运输系统中起着不可或缺的作用,使每日旅行更方便和更安全。然而,时空相关的动态演化使得准确的流量预测非常困难。现有工作主要采用图形神经NetWroks(GNNS)和深度时间序列模型(例如,复发性神经网络),以捕获动态交通系统中的复杂时空模式。对于空间模式,GNN难以在道路网络中提取全局空间信息,即远程传感器信息。虽然我们可以使用自我关注来提取全球空间信息,如前面的工作中,它也伴随着巨大的资源消耗。对于时间模式,交通数据不仅易于识别每日和每周趋势,而且难以识别由事故引起的短期噪音(例如,汽车事故和雷暴)。现有交通模型难以在时间序列中区分复杂的时间模式,因此难以实现准确的时间依赖。为了解决上述问题,我们提出了一种新颖的噪声感知高效时空变压器架构,用于准确的交通预测,名为StFormer。 Stformer由两个组件组成,这是噪声感知的时间自我关注(NATSA)和基于图形的稀疏空间自我关注(GBS3A)。 NATSA将高频分量和低频分量与时间序列分开以消除噪声并分别通过学习滤波器和时间自我关注捕获稳定的时间依赖性。 GBS3A以基于图形的稀疏查询替换vanilla自我关注的完整查询,以减少时间和内存使用情况。四个现实世界交通数据集的实验表明,履带器优于较低的计算成本的最先进的基线。
translated by 谷歌翻译
交通预测在智能交通系统中很重要,有利于交通安全,但由于现实世界交通系统中的复杂和动态的时空依赖性,这是非常具有挑战性的。先前的方法使用预定义或学习的静态图来提取空间相关性。但是,基于静态图形的方法无法挖掘交通网络的演变。研究人员随后为每次切片生成动态图形以反映空间相关性的变化,但它们遵循独立建模的时空依赖性的范例,忽略了串行空间影响。在本文中,我们提出了一种新的基于跨时动态图形的深度学习模型,名为CDGNet,用于交通预测。该模型能够通过利用横行动态图来有效地捕获每个时切片和其历史时片之间的串联空间依赖性。同时,我们设计了稀疏横行动态图的浇注机制,符合现实世界中的稀疏空间相关性。此外,我们提出了一种新颖的编码器解码器架构,用于结合基于交叉时间动态图形的GCN,用于多步行量预测。三个现实世界公共交通数据集的实验结果表明CDGNET优于最先进的基线。我们还提供了一种定性研究来分析我们建筑的有效性。
translated by 谷歌翻译
关键词提取是在文本文档中查找几个有趣的短语的任务,它提供了文档中的主要主题列表。大多数现有的基于图形的模型使用共同发生链接作为凝聚指示器来模拟语法元素的关系。但是,单词可能在文档中具有不同形式的表达式,也可能有几个同义词。只需使用共同发生信息无法捕获此信息。在本文中,我们通过利用Word Embeddings作为背景知识来增强基于图形的排名模型,以将语义信息添加到词语图。我们的方法是在既定的基准数据集和经验结果上评估的,表明嵌入邻域信息的单词提高了模型性能。
translated by 谷歌翻译
This paper focuses on designing efficient models with low parameters and FLOPs for dense predictions. Even though CNN-based lightweight methods have achieved stunning results after years of research, trading-off model accuracy and constrained resources still need further improvements. This work rethinks the essential unity of efficient Inverted Residual Block in MobileNetv2 and effective Transformer in ViT, inductively abstracting a general concept of Meta-Mobile Block, and we argue that the specific instantiation is very important to model performance though sharing the same framework. Motivated by this phenomenon, we deduce a simple yet efficient modern \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) for mobile applications, which absorbs CNN-like efficiency to model short-distance dependency and Transformer-like dynamic modeling capability to learn long-distance interactions. Furthermore, we design a ResNet-like 4-phase \textbf{E}fficient \textbf{MO}del (EMO) based only on a series of iRMBs for dense applications. Massive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, \eg, our EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass \textbf{SoTA} CNN-/Transformer-based models, while trading-off the model accuracy and efficiency well.
translated by 谷歌翻译